查看原文
其他

混沌工程技术实践与创新丨TF108回顾

中国计算机学会 中国计算机学会
2024-09-09



2023年6月8日,CCF TF 第108期活动“混沌工程技术实践与创新”在线成功举行。来自亚马逊资深技术专家黄帅、PingCAP混沌工程负责人殷成文、Shopee技术专家王相等专家,与听众一起探讨和分享了云原生数字免疫创新、混沌工程与自动化诊断,以及应用级混沌工程实践等内容。



CCF TF活动相关专家报告均收录在CCF数字图书馆【TF专辑】,欢迎长按识别,回看精彩分享。本期活动报告也将于近日收录,欢迎持续关注!



目前大规模分布式云平台和微服务架构应用普遍,因系统的复杂性显著增大,系统的不确定性、稳定性成为企业的挑战,所以近几年不少国内企业开始关注混沌工程。同时因为混沌工程要求在生产环境和过程中进行,企业技术团队如果没有很好的工程实践和经验保障,不敢承担风险落地实践。为了更好地帮助大家开展混沌工程实践,CCF TF软件质量工程SIG策划了本次“混沌工程技术实践与创新”活动,讲者来自大、中、小等不同规模的企业,他们的技术实践经验相互补充,使之更具有普适性,能更好地满足国内IT企业在实施混沌工程中不同应用场景的需求。


CCF TF第108期“混沌工程技术实践与创新”邀请了亚马逊资深技术专家黄帅、PingCAP混沌工程负责人殷成文、Shopee技术专家王相等3位从事混沌工程的企业技术专家,结合企业自身在故障注入、自动化诊断、服务自愈和应用安全等方面的技术实践,从不同角度来讨论混沌工程背后的原理、技术应用、实施过程中注意事项等,分享他们在混沌工程技术实践中所积累的经验。



云原生数字免疫创新的初探



来自亚马逊资深的技术专家黄帅跳出混沌工程圈定的范围,而是用一种系统的视角来审视软件系统的可靠性,提出“数字免疫”的概念及其实践框架,有了全面和统一的视角之后,才能真正支撑起你的云原生生产系统的稳定性,从而确保系统韧性、产品快速交付、安全性和可靠用户体验等。这个框架包含了六大部分,混沌工程是技术核心。


可观测体系:实现系统状态可视化,持续监测和链路跟踪;

自治化测试:无需人工干预,可独立完成,涉及自动规划、自动创建、自动维护和自动分析;

混沌工程:探索性测试,旨在发现系统中的漏洞和弱点,在将系统部署到生产环境之前确保系统有足够的韧性;

系统自愈力:无需运维工程师参与,在检测到问题时,能及时恢复,自动问题修复;

站点可靠性工程:在速度、稳定性和风险之间取得平衡,增强站点可靠性,提升用户体验;

软件供应链完全:处理在整个软件供应链中的潜在风险,使软件供应链透明、安全和可验证。


混沌工程与自动化诊断



PingCAP混沌工程负责人殷成文分享了在 PingCAP 探索混沌工程和自动化诊断的历程中,如何将混沌工程和自动化诊断相结合、相辅相成,更好帮助改善系统的稳定性问题。在分享中,殷成文强调要考虑清楚稳定性问题,基于良好的工程逻辑来设计混沌工程实验,有一个比较完整的体系去评估整个系统的稳定性,如收集多种数据去探索整个系统的变化情况,而不是用一个简单的阈值的方式去判断整个系统的稳定性。其次,一定要把整个混沌工程融入迭代开发的流程中,和研发团队有良好的协作,这样才能保证达到实验的目的。


应用级混沌工程实践



Shopee技术专家王相首先介绍了开源混沌工程工具Chaos Mesh的主要功能,然后围绕应用级的故障注入(即将混沌工程直接添加到应用程序中,以一种快速、简单且有趣的方式来增加对系统稳定性的信心)方法来讨论混沌工程实践,其中重点分享了Golang failpoint以及在TiDB-DM中的具体应用,通过几个具体的例子,详细探讨了如何对应用内部进行故障注入的步骤、技巧和注意事项。


互动环节,各位参会者对混沌工程技术实践的相关内容进行了踊跃提问,如“在自动诊断过程中比较常用的方式是什么?如何提高准确性和效率?”、“在一键关停的设计中,需要关注的点是哪些?是否需要人工介入?若自动关停,判断指标的考虑原则是什么?”、“单实例的偏业务的服务在做应用级别的演练比较常用的故障场景有哪些?”等问题,各位嘉宾根据分享的主题内容进行了充分的回答。


软件质量工程SIG活动安排:

8月3日 TF115

稳定性工程

软件质量工程SIG

11月2日 TF123

用户体验工程

软件质量工程SIG


活动预告


7月6日 TF111(线下活动):数据安全如何破局?

本期技术前线邀请到北京交通大学计算机学院副院长李浥东教授、杭州领信数科信息技术有限公司总裁张震宇、北京天空卫士网络安全技术有限公司董事/合伙人杨明非、聚中软件(上海)有限公司CEO杜绍森四位专家,与我们共同讨论数据安全当下面临的瓶颈及破局之策,望通过研讨推进数据安全的进一步发展。


时间 2023年7月6日 14:00-17:00

地点:国家会议中心303A(北京市朝阳区天辰东路7号)

主题 数据安全如何破局

欢迎扫码了解详情和报名现场参会 

报名链接:https://ccf.org.cn/TF111


关于CCF TF

CCF TF技术前线(Tech Frontier)创立于2017年6月,旨在为工程师提供顶级交流平台,更好地服务企业界计算机专业人士,帮助企业界专业技术人士职业发展,通过搭建平台实现常态化合作和发展,促进企业间、学术界与企业间技术交流。目前已组建知识图谱、数据科学、智能制造、架构、安全、智能设备与交互、数字化转型与企业架构、算法与AI、智能前端、工程师文化、研发效能、软件质量工程等十二个SIG(Special Interest Group),提供丰富的技术前线内容分享。2023年全年,CCF TF将在线开展20场活动,会员免费参加。

加入CCF



加入CCF会员享受更多超值活动,为自己的技术成长做一次好投资。

点击链接了解更多会员权益:

CCF个人会员权益  CCF公司会员权益


识别或扫码入会


欢迎关注CCFTF及CCF业务总部公众号,精彩陆续开启!


关注CCFTF获取TF活动资讯

关注CCF业务总部优惠预定会议场地


合作单位


CCF推荐

【精品文章】





点击“阅读原文”,立即报名TF111!

继续滑动看下一个
中国计算机学会
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存